期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. PDF文档中的脚注识别研究
黎斯达, 高良才, 汤帜, 俞银燕
北京大学学报(自然科学版)    2015, 51 (6): 1017-1021.   DOI: 10.13209/j.0479-8023.2015.087
摘要1279)      收藏

针对PDF 文档的脚注识别问题, 提出一种自动识别脚注及其引用, 并建立它们之间匹配关系的方法。首先针对PDF 文档提取脚注的一系列特征, 包括页面布局、字体信息、语义信息等, 然后基于文档部件风格一致性, 利用聚类技术, 处理在不同文档中相异但在同一文档中相似的特征, 从而使得识别过程能够适应不同文档类型。此外, 利用脚注与引用的匹配结果为识别过程提供反馈, 进一步提高了识别准确性。在真实文档测试集上的实验结果表明, 所提方法对于PDF 文档的脚注识别取得较高的准确率和召回率。

相关文章 | 多维度评价 | 评论0